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+ Introdução + Outro exemplo simples 


= Alguns algoritmos de AM induzem ADs 
a partir de um conjunto de dados 


Nó raiz 


Nós folha Nós internos e raiz: atributos preditivos 
Nós externos (folhas): classes 
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+ Exercício + Indução de AD 


= Encontrar árvore de decisão para: = Existem vários algoritmos 
= à AND b = Algoritmo de Hunt 
= à XOR b = Um dos primeiros 


= (a AND b) OR (b AND c) = Base de vários algoritmos atuais 
= CART 


= ID3, 04.5 
= SLIQ, SPRINT 


25/10/2012 André de Carvalho - ICMC/USP 25/10/2012 André de Carvalho - ICMC/USP 





25/10/2012 


+ Algoritmo de Hunt Hp Algoritmo de + de Hunt 


= Seja D, o conjunto de objetos de 
treinamento que atingem o nó t 
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Algoritmo de Hunt + Algoritmo de Hunt 


Casado 
Classe default 
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Algoritmo de Hunt Algoritmo de Hunt 


(Solteiro, ai N, Casado <8 
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+ Indução de ADs + Como dividir os objetos? 


= Geralmente usa estratégia gulosa de = Depende do tipo do atributo 
divisão e conquista = Binário 
= Divide progressivamente objetos baseado em = Simbólico (mais que dois valores) 
um atributo de teste = Nominal 
= Escolhido para otimizar algum critério = Ordinal 
= Decisões importantes = Numérico (discreto ou contínuo) 
= Como dividir os objetos? = Depende do número de divisões 
= Método para escolha do atributo de teste = 2 divisões 
= Quando parar de dividir os objetos? = Mais que 2 divisões 
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+ Atributos binários + Atributos simbólicos 


= Teste mais simples = Duas formas de condição de teste 
= Apenas dois possíveis resultados = Fazer ramos = &possíveis valores 


= Agrupar parte dos valores em cada ramo 


= Ordinais: 


Pública Nerivada « Valores agrupados não devem violar relação de 
ordem 


= Nominais: 


» Objetos em um nó filho podem estar associados a 
um grupo de valores 
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+ Atributos simbólicos + Atributos simbólicos 
Esporte gu 
Família Esporte amília Luxo 


Luxo 
Pequeno (Esporte, ca E me] (Esporte, ES : Família 


Médio 


Grande 
(Pequeno, Médio) (Grande, Gigante) 
Gigante 
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+ Atributos discretos ou contínuos 


= Condição de teste pode ser expressa 
por: 
= Comparação simples (A < valor) 
= Escolher posição (valor) que gera melhor 
partição 
= Ponto de referência 
= Intervalos (valorme < A < valorçyp) 


= Considerar todos os possíveis intervalos 
= Alguns intervalos adjacentes pode ser agregados 
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+ Medidas para escolha de atributo 


= Existem várias medidas para determinar o 
atributo que melhor divide os dados 
= Geram diferentes partições dos dados 
= Medidas de impureza 


« Distribuição de classes dos dados após divisão 
» Quanto mais balanceadas as classes em uma partição, pior 
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+ Medidas para escolha de atributo 


c 
Entropia(v) = 5 p(i/v)log, p(i/v) 


i=l 


Cc 


Gini(v)=1-5 [p(i/v)P 


ErroClass (v) =1— max[p(i/v)] 


Onde: 
Pti/v) = fração de dados pertencente a classe i em um nó v 
[a = número de classes 
Considera-se que Olog,0 = O 
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+ Atributos contínuos 


Peso = CO kg] 
sim Não 


e 


< 10kKg [50Kg, 70Kg] (70Kg, 80Kg] > 90kKg 
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+ Medidas de impureza 


= Baseadas no grau de impureza dos nós filhos 
= Quando maior, pior 

= Exemplos de medidas de impureza 
= Entropia 
= Gini 

Erro de classificação 

Qui-quadrado 
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+ Exemplo 


= Calcular a medida de impureza Gini 
para os dados abaixo: 


C 


Gini(v)=1-5 [p(i/v)P 


i=1 





ci 1 
cz 5 
Gini=? 
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+ Exemplo 


Gini(y)=1 E [p(itvw)P 


i 





ci o ci 1 ci 2 ci 3 
cz 6 cz 5 cz 4 c 3 
Gini=0.000 Gini=0.278 Gini=0.444 Gini=0.500 
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Medida Gini média ponderada 


= Usada pelos algoritmos CART, SLIQ, SPRINT 
= Quando um nó pai é dividido em Afilhos, a 


N(vy): número de objetos no filho f (v,) 
N(vp): número de objetos no nó pai (vp) 
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+ Medida de ganho 


k N(v 
A=I(y,)->, ( o 
t=1 AO) 
Onde: 
I(v): mede o grau de impureza do nó v 
N(v)): número de objetos no filho t (v,) 
N(vp): número de objetos no nó pai (v,) 
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+ Exercício 


= Fazer os mesmos cálculos para as medidas de 
entropia e de erro de classificação 


LA 
Entropia(v) = 5 p(i/v)log, p(i/v) 


i=l 


ErroClass (v) =1— max[p(i/v)] 





ci ci ci 
cz cz cz 
E=? 














ci ci ci 
cz cz cz 
Class=? Class=? Class=? 
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Medidas para selecionar divisão 


= Escolha da medida influencia seleção da 
condição de teste 


= Avaliação de qualidade de uma 
condição de teste 


= Comparar grau de impureza antes e após a 
divisão 
= Quanto maior a diferença, melhor a condição 


= Comparação pode se dar pela medida de ganho 
- Algoritmo ID3 
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+ Divisão de atributos binários 


Pai 
ci 6 
c2 6 
Gini = 0.500 


N6 1/N62 
Ci 4 2 
c| 3 3 : 
Gini = 0.486 N Gini = 0.375 


Nó3 Nó4 


Ginigivisão = 


(7/12)x0.49 + (5/12)x0.48 : “Ginigivisão = tarefa de casa 
486 Pe = 0.375 
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+ Divisão de atributos nominais 


= Duas alternativas 
= Divisão binária 


+ Divisão de atributos nominais 


= Divisão binária 
= Similar ao uso de atributos binários 
= Encontrar melhor binarização (ponto de referência) 
= Divisão múltipla = Índice de impureza é calculado para os 2 
subconjuntos 
= Divisão múltipla 
= Índice de impureza é calculado para cada divisão 


(Esporte, (res k Familiar 
= Resulta em subconjuntos em geral mais puros que 
a divisão binária 
Esporte Familiar Luxo 


25/10/2012 André de Carvalho - ICMC/USP 25/10/2012 André de Carvalho - ICMC/USP 


+ Exercício + Exercício 


= Definir a melhor divisão considerando = Definir a melhor divisão considerando 
divisão binária e divisão múltipla para: divisão binária e divisão múltipla para: 

Família|Esporte| Luxo Família|Esporte| Luxo 

2 1 1 


1 1 1 
22? 


Tipo de Carro Tipo de Carro Tipo de Carro Tipo de Carro 


se fFamilia) (Esporte) anna e fFamilia) (Esporte) antas 


3 1 c1 3 1 c1 
2 4 cz 2 4 cz 
Ginipy inioy, 0.400 Ginipy 
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Divisão de atributos contínuos 


+ Critério de parada 


= Diversas alternativas: 
= Os objetos do nó atual têm a mesma classe 


= Várias possíveis escolhas para o ponto 
de referência 


= * possíveis divisões = & valores distintos 
= Cada ponto de referência tem uma 
matriz de contagens associada a ele 
= Contagens das classes em cada uma das 
partições 
= O mesmo vale para atributos discretos 
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= Os objetos do nó atual têm valores iguais para 
os atributos de entrada, mas classes diferentes 

= O número de objetos no nó é menor que um 
dado valor 

= Todos os atributos já foram incluídos no 
caminho 
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+ Espaço de hipóteses + Espaço de hipóteses 


= Cada percurso da raiz a um nó folha 
representa uma regra de classificação | 
Classe 2 





= Cada folha 
= Está associada a uma classe 
= Corresponde a uma região do espaço de 
soluções Classe 1 Classe 4 Classe 1 
= Hiper-retângulo 
=» Interseção de hiper-retângulos é um conjunto vazio 
=» União é o espaço total Classe 2 Classe 3 


Classe 3 
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+ Exemplo + Busca no espaço de hipóteses 


= Sejam os dados abaixo referentes a = Construir uma AD que A sim 
solicitações de crédito bancário classifica solicitante de Ped 


= Construir uma árvore de decisão que classifica q Ai 
aplicação para cartão de crédito cartão de crédito 


= Aprova (Sim) 
= = Não aprova (Não) 
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Ásim Á Sim 


A Busca no espaço de hipóteses + Busca no espaço de hipóteses 
ma | um, a | ON] 


Não 
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+ Busca no espaço de hipóteses + Busca no espaço de hipóteses 


| Á.Sim | ÁSim 


Sim 


Sim 
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+ Algoritmo C4.5 + Exercício 


A aaa a em 1993 como = Seja o seguinte cadastro de pacientes: 


= J48 
= €5.0 

= Usa ganho de informação 

= Pós-poda 

= Todos os dados precisam caber na memória 
principal 
= Inadequado para grandes conjuntos de dados 
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+ Exercício + Conclusão 


= Usando medida de entropia, = Introdução 
= Induzir uma árvore de decisão capaz de Algoritmo de Hunt 
distinguir: 

= Pacientes potencialmente saudáveis 
= Pacientes potencialmente doentes 

= Testar a árvore para novos casos 
= (Luis, não, não, pequenas, sim) 
= (Laura, sim, sim, grandes, sim) 


Medidas para selecionar divisão de atributos 
Critério de parada 

Espaço de hipóteses 

Variações 
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+ Perguntas 
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